中心成果 |《语言识别理论及语言数量统计的方法论研究》项目成果介绍

高而杰语言资源高精尖创新中心 2022-06-09

导语

自2016年成立至今，语言资源高精尖创新中心（以下简称“中心”）已经走过近五年的建设发展历程，并将于2021年4月迎来五年建设终期评估。近五年来，中心签约23个在研项目，着力建设“语言资源库”、“语言文化博物馆”和“‘语言通’智能服务”三大工程，取得了诸多丰硕成果，具体包括18个语言数据库（集）、11个应用系统。其中，18个语言数据库（集）包括：世界语言基本信息库、一带一路国家语言文化核心资源集、中国周边国家（6国）语言资源集、用于语言识别的世界语言资源集、海外华语资源库、俄汉大规模语汇库与句对库、中阿语言资源集、中俄日韩英对齐4000词汇库、用于句法分析的大规模汉语语料库、汉语国际教育优质学习资源集、全球汉语中介语语料库、面向智能语音教学的汉语中介语语音库、中俄经贸合作信息库与双语合同文本库、冬奥会多语言术语资源库、面向冬奥会的机器翻译资源库、大规模冬奥项目知识图谱资源集、中华经典诗词资源集、汉学研究文献库和人才库等。中心开发的应用系统包括：冬奥术语库系统、冬奥机器翻译系统、智能化冬奥项目问答原型系统、中俄语商通系统、海外华语资源系统、SAIT汉语智能发音教学系统、“文心”智能作文批改系统、全球语言文化资源采录展示系统、《疫情防控外语通》在线查询系统等。本公众号自2020年12月17日起，推出“中心成果”系列文章，陆续介绍中心各项目的资源、系统成果。今日，我们推送《语言识别理论及语言数量统计的方法论研究》项目成果。

项目介绍

《语言识别理论及语言数量统计的方法论研究》项目由语言资源高精尖创新中心首席专家、中国社会科学院中国少数民族语言研究中心孙宏开教授，中心首席专家、原中国社会科学院中国少数民族语言研究中心主任黄行教授主持。项目于2017年12月立项，2021年3月开展结项工作。
项目由3个子课题构成：第一子课题由黄行教授负责，主要任务是通过有关权威文献和数据平台搜集、整理和保有世界各国和地区语言文字资料数据，建立世界主要语言文字知识库，探讨世界语言文字名称等专名的中文译写规则。第二子课题由孙宏开教授负责，主要任务是开展语言身份识别的理论方法研究。第三子课题由中心特聘研究员、南开大学冉启斌教授负责，主要任务是在相关大规模语言核心词汇基础上，建立用于距离计算与语言识别的ASJP模式数据库，绘制反映语言发生学关系的世界语言分类图谱。项目旨在：（1）填补我国世界语言文字知识资源保有状况的欠缺，为相关学术研究和政府语言规划制订，提供必要的数据资料支持。（2）充实和完善我国关于语言身份识别的理论方法研究。建立创新型的用于距离计算与语言识别的ASJP模式数据库，绘制反映语言发生学关系的世界语言分类图谱。（3）初拟世界语言文字名称专名中文译写规则，为相关科研和语文工作领域世界语言文字名称中文译写需求，提供参考规范。

项目成果

本项目成果属资源类成果，其主要内容包括：

（1）世界语言文字数据资源的搜集、整理和保有

世界语言知识库

该知识库的语种范围包括ISO国际标准代码、国别、人口、系属、方言、文字等语言基本属性的世界全部语言，以及其中一半以上包括音系、形态、句法、词汇、书写系统等本体知识的语言。
基于该知识库开展了“我国周边国家的语言状况”“一带一路沿线国家的语言状况”这两项当前与我国语言事务关系最密切的世界区域国别语言问题的专题研究。

世界文字知识库

该知识库的文字范围包括书写语言、国别、字符系统等文字基本属性的世界全部现行文字，以及其中最主要的包括历史来源、书写语言、字母表、文字样本等本体知识的文字。该知识库还归纳梳理了世界现行文字的字母源流、文字系统类型，以及反映世界文字多样性的600多种字体的大多数世界文字字母表的图片文件。

（2）充实和完善我国关于语言身份识别研究的理论方法

项目成果制作了包含迄今为止世界语言数量最大的9788语档的ASJP模式数据库，极大地丰富了我国学术界关于世界语言、中国的语言，特别是汉语方言语档的数据量。
项目依据LDND距离的全面计算，形成4个数值区间，可以用以区分传统上“不同语系语言”“相同语系不同语族语言”“相同语系相同语族语言”和“相同方言变体”等4种区分层级，为确定语言变体之间的身份和关系提供了客观有效的指标。

（3）初拟世界语言文字名称专名中文译写规则

在世界“语种名称及代码”“文字名称及代码”等国家标准，以及谷歌、百度、微软等国内外通用翻译平台6000余既有世界语言文字中文译名的基础上，研制了“世界语言文字名称专名中文译写规则”的初稿。

应用价值

该项目成果仍处研发阶段，未来有望在与语言资源相关的学术领域、科研教学机构，以及政府和企事业研发部门产生相应的影响。

以上述三项项目基本成果为例，（1）“世界语言文字知识库”是中心世界语言资源保有的一项必不可少的基本建设内容；（2）基于大数据和复杂算法的“语言身份识别研究理论方法”，将对世界语言和中国的语言身份识别研究提出创新性理论模式，与可供国内和国际学界研讨的学术平台；（3）“世界语言文字名称中文译写规则”可以填补我国“科学技术名词规范”领域尚未系统建立的“世界语言文字名称”专名的空白，为“信息与文献”领域世界语言文字名称及代码的标准研制提供基础数据。

▼延伸阅读▼

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

这家头部券商资管总经理"迎新"

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

中心成果 |《语言识别理论及语言数量统计的方法论研究》项目成果介绍

（1）世界语言文字数据资源的搜集、整理和保有

（2）充实和完善我国关于语言身份识别研究的理论方法

（3）初拟世界语言文字名称专名中文译写规则

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

这家头部券商资管总经理"迎新"

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

生成图片，分享到微信朋友圈

中心成果 |《语言识别理论及语言数量统计的方法论研究》项目成果介绍

（1）世界语言文字数据资源的搜集、整理和保有

（2）充实和完善我国关于语言身份识别研究的理论方法

（3）初拟世界语言文字名称专名中文译写规则

您可能也对以下帖子感兴趣